<html>
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1, maximum-scale=1, user-scalable=no" name="viewport"/>
  <title>
   HuJiangtang: 分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵  | 数螺 | NAUT IDEA
  </title>
  <link href="http://cdn.bootcss.com/bootstrap/3.3.6/css/bootstrap-theme.min.css" rel="stylesheet"/>
  <link href="http://cdn.bootcss.com/bootstrap/3.3.6/css/bootstrap.min.css" rel="stylesheet"/>
  <style type="text/css">
   #xmain img {
                  max-width: 100%;
                  display: block;
                  margin-top: 10px;
                  margin-bottom: 10px;
                }

                #xmain p {
                    line-height:150%;
                    font-size: 16px;
                    margin-top: 20px;
                }

                #xmain h2 {
                    font-size: 24px;
                }

                #xmain h3 {
                    font-size: 20px;
                }

                #xmain h4 {
                    font-size: 18px;
                }


                .header {
	           background-color: #0099ff;
	           color: #ffffff;
	           margin-bottom: 20px;
	        }

	        .header p {
                  margin: 0px;
                  padding: 10px 0;
                  display: inline-block;  
                  vertical-align: middle;
                  font-size: 16px;
               }

               .header a {
                 color: white;
               }

              .header img {
                 height: 25px;
              }
  </style>
  <script src="http://cdn.bootcss.com/jquery/3.0.0/jquery.min.js">
  </script>
  <script src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=TeX-AMS-MML_HTMLorMML" type="text/javascript">
   MathJax.Hub.Config({
          tex2jax: {inlineMath: [['$','$'], ['\\(','\\)']]},
          TeX: {equationNumbers: {autoNumber: "AMS"}}
        });
  </script>
  <script src="http://nautstatic-10007657.file.myqcloud.com/static/css/readability.min.js" type="text/javascript">
  </script>
  <script type="text/javascript">
   $(document).ready(function() {
                 var loc = document.location;
                 var uri = {
                  spec: "http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/",
                  host: "http://cos.name",
                  prePath: "http://cos.name",
                  scheme: "http",
                  pathBase: "http://cos.name/"
                 };
    
                 var documentClone = document.cloneNode(true);
                 var article = new Readability(uri, documentClone).parse();
     
                 document.getElementById("xmain").innerHTML = article.content;
                });
  </script>
  <!-- 1466441697: Accept with keywords: (title(0.555555555556):性能,门户网站,模型,分类,矩阵,统计学,服务平台,中国,回归, topn(0.533333333333):概率,个数,决策,信息,总数,分类器,统计学,例数,负例,数据挖掘,变量,阈值,模型,评分,文章,数据,回归,阀值,预测,账户,覆盖率,信用,命中率,矩阵,指标,客户,正例,类别,错误,分类).-->
 </head>
 <body class="single single-post postid-567 single-format-standard sidebar" onload="">
  <div class="header">
   <div class="container">
    <div class="row">
     <div class="col-xs-6 col-sm-6 text-left">
      <a href="/databee">
       <img src="http://nautidea-10007657.cos.myqcloud.com/logo_white.png"/>
      </a>
      <a href="/databee">
       <p>
        数螺
       </p>
      </a>
     </div>
     <div class="hidden-xs col-sm-6 text-right">
      <p>
       致力于数据科学的推广和知识传播
      </p>
     </div>
    </div>
   </div>
  </div>
  <div class="container text-center">
   <h1>
    HuJiangtang: 分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵
   </h1>
  </div>
  <div class="container" id="xmain">
   <div class="hfeed site" id="page">
    <header class="site-header" id="masthead" role="banner">
     <div id="cos-logo">
      <a href="http://cos.name/">
       <img src="http://cos.name/wp-content/themes/COS-kermesinus/images/headers/cos-logo.png"/>
      </a>
     </div>
     <div class="navbar" id="navbar">
      <nav class="navigation main-navigation" id="site-navigation" role="navigation">
       <h3 class="menu-toggle">
        菜单
       </h3>
       <a class="screen-reader-text skip-link" href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/#content" title="跳至内容">
        跳至内容
       </a>
       <div class="menu-%e6%88%91%e7%9a%84%e8%8f%9c%e5%8d%95-container">
        <ul class="nav-menu" id="menu-%e6%88%91%e7%9a%84%e8%8f%9c%e5%8d%95">
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-home menu-item-4746" id="menu-item-4746">
          <a href="http://cos.name">
           主页
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-has-children menu-item-8120" id="menu-item-8120">
          <a href="http://cos.name/cn">
           论坛
          </a>
          <ul class="sub-menu">
           <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8124" id="menu-item-8124">
            <a href="http://cos.name/cn/wp-login.php?action=register">
             论坛注册
            </a>
           </li>
           <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8125" id="menu-item-8125">
            <a href="http://cos.name/cn/wp-login.php">
             论坛登录
            </a>
           </li>
          </ul>
         </li>
         <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-8110" id="menu-item-8110">
          <a href="http://cos.name/books/">
           图书资料
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8112" id="menu-item-8112">
          <a href="http://cos.name/videos">
           视频教程
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8333" id="menu-item-8333">
          <a href="http://cos.name/salon/">
           统计沙龙
          </a>
         </li>
         <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-8111" id="menu-item-8111">
          <a href="http://cos.name/chinar/">
           R语言会议
          </a>
         </li>
         <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-8109" id="menu-item-8109">
          <a href="http://cos.name/training/">
           讲座与培训
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8115" id="menu-item-8115">
          <a href="http://cos.name/cn/forum/comprehensive/job/">
           招聘信息
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-has-children menu-item-4780" id="menu-item-4780">
          <a href="http://cos.name/about">
           关于我们
          </a>
          <ul class="sub-menu">
           <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8113" id="menu-item-8113">
            <a href="http://cos.name/2008/11/how-to-work-with-cos/">
             加入我们
            </a>
           </li>
           <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8119" id="menu-item-8119">
            <a href="http://cos.name/donate/">
             赞助我们
            </a>
           </li>
           <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8114" id="menu-item-8114">
            <a href="http://cos.name/cn/forum/26">
             项目合作
            </a>
           </li>
          </ul>
         </li>
        </ul>
       </div>
       <form action="http://cos.name/" class="search-form" method="get" role="search">
        <label>
         <span class="screen-reader-text">
          搜索：
         </span>
        </label>
       </form>
      </nav>
      <!-- #site-navigation -->
     </div>
     <!-- #navbar -->
    </header>
    <!-- #masthead -->
    <div class="site-main" id="main">
     <div class="content-area" id="primary">
      <div class="site-content" id="content" role="main">
       <article class="post-567 post type-post status-publish format-standard hentry category-dmml category-biostat category-packages tag-confusion-matrix tag-logistic tag-sas tag-sensitiveity tag-specificity tag-145 tag-150 tag-144 tag-151 tag-149" id="post-567">
        <header class="entry-header">
         <h1 class="entry-title">
          分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵
         </h1>
         <div class="entry-meta">
          <span class="date">
           <a href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/" rel="bookmark" title="链向分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵的固定链接">
            <time class="entry-date" datetime="2008-12-25T14:42:45+00:00">
             2008/12/25
            </time>
           </a>
          </span>
          <span class="categories-links">
           <a href="http://cos.name/category/data/dmml/" rel="category tag">
            数据挖掘与机器学习
           </a>
           、
           <a href="http://cos.name/category/data/biostat/" rel="category tag">
            生物与医学统计
           </a>
           、
           <a href="http://cos.name/category/software/packages/" rel="category tag">
            统计软件
           </a>
          </span>
          <span class="tags-links">
           <a href="http://cos.name/tag/confusion-matrix/" rel="tag">
            Confusion Matrix
           </a>
           、
           <a href="http://cos.name/tag/logistic%e5%9b%9e%e5%bd%92/" rel="tag">
            Logistic回归
           </a>
           、
           <a href="http://cos.name/tag/sas/" rel="tag">
            SAS
           </a>
           、
           <a href="http://cos.name/tag/sensitiveity/" rel="tag">
            Sensitiveity
           </a>
           、
           <a href="http://cos.name/tag/specificity/" rel="tag">
            Specificity
           </a>
           、
           <a href="http://cos.name/tag/%e5%88%86%e7%b1%bb%e6%a8%a1%e5%9e%8b/" rel="tag">
            分类模型
           </a>
           、
           <a href="http://cos.name/tag/%e5%91%bd%e4%b8%ad%e7%8e%87/" rel="tag">
            命中率
           </a>
           、
           <a href="http://cos.name/tag/%e6%95%b0%e6%8d%ae%e6%8c%96%e6%8e%98/" rel="tag">
            数据挖掘
           </a>
           、
           <a href="http://cos.name/tag/%e6%b7%b7%e6%b7%86%e7%9f%a9%e9%98%b5/" rel="tag">
            混淆矩阵
           </a>
           、
           <a href="http://cos.name/tag/%e8%a6%86%e7%9b%96%e7%8e%87/" rel="tag">
            覆盖率
           </a>
          </span>
          <span class="author vcard">
           <a class="url fn n" href="http://cos.name/author/hujiangtang/" rel="author" title="查看所有由胡江堂发布的文章">
            胡江堂
           </a>
          </span>
         </div>
         <!-- .entry-meta -->
        </header>
        <!-- .entry-header -->
        <div class="entry-content">
         <p>
          跑完分类模型（Logistic回归、决策树、神经网络等），我们经常面对一大堆模型评估的报表和指标，如Confusion Matrix、ROC、Lift、Gini、K-S之类（这个单子可以列很长），往往让很多在业务中需要解释它们的朋友头大：“这个模型的Lift是4，表明模型运作良好。——啊，怎么还要解释ROC，ROC如何如何，表明模型表现良好……”如果不明白这些评估指标的背后的直觉，就很可能陷入这样的机械解释中，不敢多说一句，就怕哪里说错。本文就试图用一个统一的例子（SAS Logistic回归），从实际应用而不是理论研究的角度，对以上提到的各个评估指标逐一点评，并力图表明：
         </p>
         <ol>
          <li>
           这些评估指标，都是可以用白话（plain English, 普通话）解释清楚的；
          </li>
          <li>
           它们是可以手算出来的，看到各种软件包输出结果，并不是一个无法探究的“黑箱”；
          </li>
          <li>
           它们是相关的。你了解一个，就很容易了解另外一个。
          </li>
         </ol>
         <p>
          本文从混淆矩阵(Confusion Matrix,或分类矩阵,Classification Matrix)开始，它最简单，而且是大多数指标的基础。
         </p>
         <h2>
          <span id="more-567">
          </span>
          数据
         </h2>
         <p>
          本文使用一个在信用评分领域非常有名的免费数据集，German Credit Dataset，你可以在
          <a href="http://archive.ics.uci.edu/ml/">
           UCI Machine Learning Repository
          </a>
          找到（
          <a href="http://archive.ics.uci.edu/ml/machine-learning-databases/statlog/german/german.data-numeric">
           下载
          </a>
          ；
          <a href="http://archive.ics.uci.edu/ml/machine-learning-databases/statlog/german/german.doc">
           数据描述
          </a>
          ）。另外，你还可以在SAS系统的Enterprise Miner的演示数据集中找到该数据的一个版本（dmagecr.sas7bdat）。以下把这个数据分为两部分，训练数据train和验证数据valid，所有的评估指标都是在valid数据中计算（纯粹为了演示评估指标，在train数据里计算也未尝不可），我们感兴趣的二分变量是good_bad，取值为{good, bad}：
         </p>
         <pre class="brush: r">Train data
good_bad    Frequency     Percent
-------------------------------------------
bad               154              25.67
good             446              74.33

Valid data
good_bad    Frequency     Percent
--------------------------------------------
bad               146              36.50
good             254              63.50</pre>
         <p>
          信用评分指帮助贷款机构发放消费信贷的一整套决策模型及其支持技术。一般地，信用评分技术将客户分为好客户与坏客户两类，比如说，好客户(good)能够按期还本付息（履约），违约的就是坏客户(bad)。具体做法是根据历史上每个类别（履约、违约）的若干样本，从已知的数据中考察借款人的哪些特征对其拖欠或违约行为有影响，从而测量借款人的违约风险，为信贷决策提供依据。Logistic回归是信用评分领域运用最成熟最广泛的统计技术。
         </p>
         <h2>
          约定
         </h2>
         <p>
          在我们的示例数据中，要考察的二分变量是good_bad，我们把感兴趣的那个取值bad（我们想计算违约的概率），称作正例(Positive, 1)，另外那个取值(good）称作负例(Negative, 0)。在SAS的Logistic回归中，默认按二分类取值的升序排列取第一个为positive，所以默认的就是求bad的概率。（若需要求good的概率，需要特别指定）。
         </p>
         <h2>
          模型
         </h2>
         <p>
          如果没有特别说明，以下所有的SAS代码都在SAS 9.1.3 SP4系统中调试并运行成功（在生成ROC曲线时，我还会提到SAS9.2的新功能）。
         </p>
         <pre class="brush: r"><strong>proc</strong> <strong>logistic</strong> data=train;

model good_bad=checking history duration savings property;

<strong>run</strong>;</pre>
         <p>
          这个数据很整齐，能做出很漂亮的模型，以下就直接贴出参数估计的结果：
         </p>
         <pre class="brush: r">Analysis of Maximum Likelihood Estimates

Standard     Wald
Parameter    DF    Estimate       Error     Chi-Square    Pr &gt; ChiSq

Intercept     1      0.6032      0.4466        1.8242        0.1768
checking      1     -0.6536      0.0931       49.3333        &lt;.0001
history         1     -0.4083      0.0980       17.3597        &lt;.0001
duration      1      0.0248     0.00907        7.4820        0.0062
savings        1     -0.2017      0.0745        7.3308        0.0068
property      1      0.3157      0.1052        9.0163        0.0027</pre>
         <p>
          回归方程就是：
         </p>
         <pre class="brush: r">logit[p(bad)]=log(p/1-p)
             =0.6032-0.6536*checking-0.4083*history+0.0248*duration
              -0.2017*savings+0.3157*property</pre>
         <p>
          用下面的公式就可以求出正例的概率（bad的概率）：
         </p>
         <pre class="brush: r">p=exp(logit)/(exp(logit)+<strong>1</strong>)</pre>
         <p>
          上式求出的是概率值，如何根据概率值把各个客户归类，还需要一个阈值，比如，这里我们简单地规定，违约概率超过0.5的就归为bad，其余为good。把上述公式代入valid数据中，
         </p>
         <pre class="brush: r"><strong>data</strong> valid_p;

set valid;

logit=<strong>0.6032</strong>-<strong>0.6536</strong>*checking-<strong>0.4083</strong>*history+<strong>0.0248</strong>*duration-<strong>0.2017</strong>*savings+<strong>0.3157</strong>*property;

p=exp(logit)/(exp(logit)+<strong>1</strong>);

if p&lt;<strong>0.5</strong> then good_bad_predicted='good';

else good_bad_predicted='bad';

keep good_bad p good_bad_predicted;

<strong>run</strong>;</pre>
         <p>
          从下面的局部的数据valid_p可以看到，一些实际上是good的客户，根据我们的模型（阈值p取0.5），却预测他为bad（套用我们假设检验的黑话，这就犯了“
          <a href="http://cos.name/2008/12/decision-and-risk/" target="_blank">
           弃真
          </a>
          ”的错误），对一些原本是bad的客户，却预测他为good（“取伪”错误），当然，对更多的客户，good还预测成good，bad还预测成bad：
         </p>
         <pre class="brush: r">good_bad       p       good_bad_predicted
bad       0.61624       bad
<span style="color: #ff0000;">bad       0.03607       good</span>
good      0.12437      good
good      0.21680      good
good      0.34833      good
<span style="color: #ff0000;">good      0.69602      bad</span>
bad       0.68873       bad
good      0.48351      good
good      0.03288      good
good      0.06789      good
good      0.61195      bad
good      0.15306      good</pre>
         <h2>
          Confusion Matrix, 混淆矩阵
         </h2>
         <p>
          一个完美的分类模型就是，如果一个客户实际上(Actual)属于类别good，也预测成(Predicted)good，处于类别bad，也就预测成bad。但从上面我们看到，一些实际上是good的客户，根据我们的模型，却预测他为bad，对一些原本是bad的客户，却预测他为good。我们需要知道，这个模型到底预测对了多少，预测错了多少，混淆矩阵就把所有这些信息，都归到一个表里：
         </p>
         <pre class="brush: r">		预测
		1	0
实	1	d, True Positive	c, False Negative	c+d, Actual Positive
际	0	b, False Positive	a, True Negative	a+b, Actual Negative
		b+d, Predicted Positive	a+c, Predicted Negative</pre>
         <p>
          其中，
         </p>
         <ol>
          <li>
           a是正确预测到的负例的数量, True Negative(TN,0-&gt;0)
          </li>
          <li>
           b是把负例预测成正例的数量, False Positive(FP, 0-&gt;1)
          </li>
          <li>
           c是把正例预测成负例的数量, False Negative(FN, 1-&gt;0)
          </li>
          <li>
           d是正确预测到的正例的数量, True Positive(TP, 1-&gt;1)
          </li>
          <li>
           a+b是实际上负例的数量，Actual Negative
          </li>
          <li>
           c+d是实际上正例的个数，Actual Positive
          </li>
          <li>
           a+c是预测的负例个数，Predicted Negative
          </li>
          <li>
           b+d是预测的正例个数，Predicted Positive
          </li>
         </ol>
         <p>
          以上似乎一下子引入了许多概念，其实不必像咋一看那么复杂，有必要过一下这里的概念。实际的数据中，客户有两种可能{good, bad}，模型预测同样这两种可能，可能匹配可能不匹配。匹配的好说，0-&gt;0（读作，实际是Negative，
          <strong>
           预测成
          </strong>
          Negative），或者 1-&gt;1（读作，实际是Positive，
          <strong>
           预测成
          </strong>
          Positive），这就是True Negative（其中Negative是指
          <strong>
           预测成
          </strong>
          Negative）和True Positive（其中Positive是指
          <strong>
           预测成
          </strong>
          Positive）的情况。
         </p>
         <p>
          同样，犯错也有两种情况。实际是Positive，预测成Negative (1-&gt;0) ，这就是False Negative；实际是Negative，预测成Positive (0-&gt;1) ，这就是False Positive；
         </p>
         <p>
          我们可以通过SAS的proc freq得到以上数字：
         </p>
         <pre class="brush: r">proc freq data=valid_p;
tables good_bad*good_bad_predicted/nopercent nocol norow;
run;</pre>
         <p>
          对照上表，结果如下：
         </p>
         <pre class="brush: r">	预测
		1	0
实	1,bad	d, True Positive,48	c, False Negative,98	c+d, Actual Positive,146
际	0,good	b, False Positive,25	a, True Negative,229	a+b, Actual Negative,254
		b+d, Predicted Positive,73	a+c, Predicted Negative,327	400</pre>
         <p>
          根据上表，以下就有几组常用的评估指标（每个指标分中英文两行）：
         </p>
         <h3>
          1. 准确（分类）率VS.误分类率
         </h3>
         <p>
          准确（分类）率=正确预测的正反例数/总数
         </p>
         <p>
          <strong>
           Accuracy
          </strong>
          =true positive and true negative/total cases= a+d/a+b+c+d=(48+229)/(48+98+25+229)=69.25%
         </p>
         <p>
          误分类率=错误预测的正反例数/总数
         </p>
         <p>
          <strong>
           Error rate
          </strong>
          =false positive and false negative/total cases=b+c/a+b+c+d=1-Accuracy=30.75%
         </p>
         <h3>
          2. （正例的）覆盖率VS. （正例的）命中率
         </h3>
         <p>
          覆盖率=正确预测到的正例数/实际正例总数，
         </p>
         <p>
          <strong>
           Recall
          </strong>
          (
          <strong>
           True Positive Rate
          </strong>
          ，or
          <strong>
           Sensitivity
          </strong>
          )=true positive/total actual positive=d/c+d=48/(48+98)=32.88%
         </p>
         <p>
          /*注：覆盖率(Recall）这个词比较直观，在数据挖掘领域常用。因为感兴趣的是正例(positive)，比如在信用卡欺诈建模中，我们感兴趣的是有高欺诈倾向的客户，那么我们最高兴看到的就是，用模型正确预测出来的欺诈客户(True Positive)cover到了大多数的实际上的欺诈客户，覆盖率，自然就是一个非常重要的指标。这个覆盖率又称Sensitivity， 这是生物统计学里的标准词汇，SAS系统也接受了（
          <em>
           谁有直观解释？
          </em>
          ）。 以后提到这个概念，就表示为,
          <span style="color: #ff0000;">
           Sensitivity（覆盖率，True Positive Rate）
          </span>
          。 */
         </p>
         <p>
          命中率=正确预测到的正例数/预测正例总数
         </p>
         <p>
          <strong>
           Precision
          </strong>
          (
          <strong>
           Positive Predicted Value
          </strong>
          ,
          <strong>
           PV+
          </strong>
          )=true positive/ total predicted positive=d/b+d=48/(48+25)=65.75%
         </p>
         <p>
          /*注：这是一个跟覆盖率相对应的指标。对所有的客户，你的模型预测，有b+d个正例，其实只有其中的d个才击中了目标（命中率）。在数据库营销里，你预测到b+d个客户是正例，就给他们邮寄传单发邮件，但只有其中d个会给你反馈（这d个客户才是真正会响应的正例），这样，命中率就是一个非常有价值的指标。 以后提到这个概念，就表示为
          <span style="color: #ff0000;">
           PV+(命中率，Positive Predicted Value)
          </span>
          *。/
         </p>
         <h3>
          3.Specificity VS. PV-
         </h3>
         <p>
          负例的覆盖率=正确预测到的负例个数/实际负例总数
         </p>
         <p>
          <strong>
           Specificity
          </strong>
          (
          <strong>
           True Negative Rate
          </strong>
          )=true negative/total actual negative=a/a+b=229/(25+229)=90.16%
         </p>
         <p>
          /*注：Specificity跟Sensitivity（覆盖率，True Positive Rate）类似，或者可以称为“负例的覆盖率”，也是生物统计用语。以后提到这个概念，就表示为
          <span style="color: #ff0000;">
           Specificity(负例的覆盖率，True Negative Rate)
          </span>
          。*/
         </p>
         <p>
          负例的命中率=正确预测到的负例个数/预测负例总数
         </p>
         <p>
          <strong>
           Negative predicted value
          </strong>
          (
          <strong>
           PV-
          </strong>
          )=true negative/total predicted negative=a/a+c=229/(98+229)=70.03%
         </p>
         <p>
          /*注：PV-跟PV+（命中率，Positive Predicted value）类似，或者可以称为“负例的命中率”。 以后提到这个概念，就表示为PV-(负例的命中率，Negative Predicted Value)。*/
         </p>
         <p>
          以上6个指标，可以方便地由上面的提到的proc freq得到：
         </p>
         <pre class="brush: r"><strong>proc</strong> <strong>freq</strong> data=valid_p;

tables good_bad*good_bad_predicted ;

<strong>run</strong>;</pre>
         <p>
          <a href="http://cos.name/wp-content/uploads/2008/12/pv.png">
           <img src="http://cos.name/wp-content/uploads/2008/12/pv-thumb.png"/>
          </a>
         </p>
         <p>
          其中，准确率=12.00%+57.25%=69.25% ，覆盖率=32.88% ，命中率=65.75% ，Specificity=90.16%，PV-=70.03% 。
         </p>
         <p>
          或者，我们可以通过SAS logistic回归的打分程序（score）得到一系列的Sensitivity和Specificity，
         </p>
         <pre class="brush: r"><strong>proc</strong> <strong>logistic</strong> data=train;

model good_bad=checking history duration savings property;

score data=valid <strong>outroc=valid_roc</strong>;

<strong>run</strong>;</pre>
         <p>
          数据valid_roc中有几个我们感兴趣的变量：
         </p>
         <ul>
          <li>
           _PROB_:阈值，比如以上我们选定的0.5
          </li>
          <li>
           _SENSIT_：sensitivity（覆盖率，true positive rate）
          </li>
          <li>
           _1MSPEC_  ：1-Specificity，为什么提供1-Specificity而不是Specificity，下文有讲究。
          </li>
         </ul>
         <pre class="brush: r">_PROB_ _SENSIT_ _1MSPEC_

0.54866 0.26712 0.07087

0.54390 0.27397 0.07874

0.53939 0.28767 0.08661

0.52937 0.30137 0.09055

0.51633 0.31507 0.09449

<span style="color: #ff0000;">0.50583 0.32877 0.09843</span>

0.48368 0.36301 0.10236

0.47445 0.36986 0.10630</pre>
         <p>
          如果阈值选定为0.50583，sensitivity（覆盖率，true positive rate）就为0.32877，Specificity就是1-0.098425=0.901575，与以上我们通过列联表计算出来的差不多（阈值0.5）。
         </p>
         <h2>
          下期预告：ROC
         </h2>
         <p>
          以上我们用列联表求覆盖率等指标，需要指定一个阈值（threshold）。同样，我们在valid_roc数据中，看到针对不同的阈值，而产生的相应的覆盖率。我们还可以看到，随着阈值的减小（更多的客户就会被归为正例），sensitivity和1-Specificity也相应增加（也即Specificity相应减少）。把基于不同的阈值而产生的一系列sensitivity和Specificity描绘到直角坐标上，就能更清楚地看到它们的对应关系。由于sensitivity和Specificity的方向刚好相反，我们把sensitivity和1-Specificity描绘到同一个图中，它们的对应关系，就是传说中的ROC曲线，全称是receiver operating characteristic curve，中文叫“接受者操作特性曲线”。欲知后事如何，且听下回分解。
         </p>
         <h2>
          参考资料：
         </h2>
         <ol>
          <li class="MsoNormal">
           Mithat      Gonen. 2007.
           <em>
            Analyzing Receiver Operating Characteristic Curves with      SAS
           </em>
           . Cary, NC: SAS Institute Inc.
          </li>
          <li class="MsoNormal">
           Dan      Kelly, etc. 2007.
           <em>
            Predictive Modeling Using Logistic Regression Course      Notes
           </em>
           . Cary, NC: SAS Institute Inc.
          </li>
          <li class="MsoNormal">
           <em>
            Confusion      Matrix
           </em>
           ,
           <strong>
            see
           </strong>
           <a href="http://www2.cs.uregina.ca/~dbd/cs831/notes/confusion_matrix/confusion_matrix.html">
            http://www2.cs.uregina.ca/~dbd/cs831/notes/confusion_matrix/confusion_matrix.html
           </a>
          </li>
         </ol>
         <div class="wumii-hook">
          <br/>
          <br/>
         </div>
        </div>
        <!-- .entry-content -->
        <footer class="entry-meta">
         <div class="author-info">
          <div class="author-avatar">
           <img src="http://sdn.geekzu.org/avatar/abd82db6fc93f4ed3c5ae292f4d8f0c7?s=74&amp;d=monsterid&amp;r=g"/>
          </div>
          <!-- .author-avatar -->
          <div class="author-description">
           <h2 class="author-title">
            关于胡江堂
           </h2>
           <p class="author-bio">
            胡江堂，行业/职业：医药/SAS程序员；教育背景：经济学-&gt;软件工程；学术兴趣：数据挖掘-商务智能，信用评分-数量金融、SAS-应用统计；个人主页：
            <a href="http://jiangtanghu.com//">
             http://jiangtanghu.com/
            </a>
            <a class="author-link" href="http://cos.name/author/hujiangtang/" rel="author">
             查看所有由胡江堂发表的文章
             <span class="meta-nav">
              →
             </span>
            </a>
           </p>
          </div>
          <!-- .author-description -->
         </div>
         <!-- .author-info -->
        </footer>
        <!-- .entry-meta -->
       </article>
       <!-- #post -->
       <nav class="navigation post-navigation" role="navigation">
        <h1 class="screen-reader-text">
         文章导航
        </h1>
        <div class="nav-links">
         <a href="http://cos.name/2008/12/cos-navigation-4/" rel="prev">
          <span class="meta-nav">
           ←
          </span>
          统计之都《本周导读》第四辑
         </a>
         <a href="http://cos.name/2008/12/cos-navigation-5/" rel="next">
          统计之都《本周导读》第五辑
          <span class="meta-nav">
           →
          </span>
         </a>
        </div>
        <!-- .nav-links -->
       </nav>
       <!-- .navigation -->
       <div class="comments-area" id="comments">
        <h2 class="comments-title">
         《
         <span>
          分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵
         </span>
         》有22个想法
        </h2>
        <ol class="comment-list">
         <li class="comment byuser comment-author-karlqi even thread-even depth-1 parent" id="comment-187">
          <article class="comment-body" id="div-comment-187">
           <footer class="comment-meta">
            <div class="comment-author vcard">
             <img src="http://sdn.geekzu.org/avatar/bececb0dae46fdd4d03b03616d053003?s=74&amp;d=monsterid&amp;r=g"/>
             <b class="fn">
              齐韬
             </b>
             <span class="says">
              说道：
             </span>
            </div>
            <!-- .comment-author -->
            <div class="comment-metadata">
             <a href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/#comment-187">
              <time datetime="2008-12-26T12:02:17+00:00">
               2008/12/26 12:02
              </time>
             </a>
            </div>
            <!-- .comment-metadata -->
           </footer>
           <!-- .comment-meta -->
           <div class="comment-content">
            <p>
             很好的文章，读了很受启发。谢谢。
             <br/>
             对于类似于SARS病例的医学诊断中，如果除了test positive（阳性） 和test negative（阴性） 外还有test suspected（疑似）的情形，有什么好的方法没有。也就是说，Truth只有两种（感染和未感染两种），但是诊断（Test）却有三种（感染，未感染，疑似）的情况，应该怎么分析呢，这时的ROC曲线又如何设计呢？
             <br/>
             如果Truth也有三种，比如（SARS一型、SARS二型、SARS三型），又有什么方法可以处理呢？谢谢。
            </p>
           </div>
           <!-- .comment-content -->
           <div class="reply">
            <a aria-label="回复给齐韬" class="comment-reply-link" href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/?replytocom=187#respond" onclick='return addComment.moveForm( "div-comment-187", "187", "respond", "567" )' rel="nofollow">
             回复
            </a>
           </div>
          </article>
          <!-- .comment-body -->
          <ol class="children">
           <li class="comment odd alt depth-2" id="comment-6689">
            <article class="comment-body" id="div-comment-6689">
             <footer class="comment-meta">
              <div class="comment-author vcard">
               <img src="http://sdn.geekzu.org/avatar/778f7a0f91db85d6d115dc8d4a6de15f?s=74&amp;d=monsterid&amp;r=g"/>
               <b class="fn">
                ricklovelisa
               </b>
               <span class="says">
                说道：
               </span>
              </div>
              <!-- .comment-author -->
              <div class="comment-metadata">
               <a href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/#comment-6689">
                <time datetime="2015-04-30T11:33:59+00:00">
                 2015/04/30 11:33
                </time>
               </a>
              </div>
              <!-- .comment-metadata -->
             </footer>
             <!-- .comment-meta -->
             <div class="comment-content">
              <p>
               这个就变成了3X3的confusion matrix了，理解方式和2X2的一样，只是更多了而已。
              </p>
             </div>
             <!-- .comment-content -->
             <div class="reply">
              <a aria-label="回复给ricklovelisa" class="comment-reply-link" href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/?replytocom=6689#respond" onclick='return addComment.moveForm( "div-comment-6689", "6689", "respond", "567" )' rel="nofollow">
               回复
              </a>
             </div>
            </article>
            <!-- .comment-body -->
           </li>
           <!-- #comment-## -->
          </ol>
          <!-- .children -->
         </li>
         <!-- #comment-## -->
         <li class="comment even thread-odd thread-alt depth-1" id="comment-188">
          <article class="comment-body" id="div-comment-188">
           <footer class="comment-meta">
            <div class="comment-author vcard">
             <img src="http://sdn.geekzu.org/avatar/34e0143fb09d6f1a82876586307be50c?s=74&amp;d=monsterid&amp;r=g"/>
             <b class="fn">
              ..
             </b>
             <span class="says">
              说道：
             </span>
            </div>
            <!-- .comment-author -->
            <div class="comment-metadata">
             <a href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/#comment-188">
              <time datetime="2008-12-26T12:49:48+00:00">
               2008/12/26 12:49
              </time>
             </a>
            </div>
            <!-- .comment-metadata -->
           </footer>
           <!-- .comment-meta -->
           <div class="comment-content">
            <p>
             有一个问题撒
             <br/>
             如果两个class 的training data是不平衡的，或者test data是不平衡的，那怎么去描述你所说的这些指标呢。。很明显，好用户应该是比坏用户多一些的，而且，最关键的是，辨别出一个坏用户的作用比辨别出一个好用户的经济价值要大很多，那confusion matrix还有用没？
            </p>
           </div>
           <!-- .comment-content -->
           <div class="reply">
            <a aria-label="回复给.." class="comment-reply-link" href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/?replytocom=188#respond" onclick='return addComment.moveForm( "div-comment-188", "188", "respond", "567" )' rel="nofollow">
             回复
            </a>
           </div>
          </article>
          <!-- .comment-body -->
         </li>
         <!-- #comment-## -->
         <li class="comment odd alt thread-even depth-1" id="comment-189">
          <article class="comment-body" id="div-comment-189">
           <footer class="comment-meta">
            <div class="comment-author vcard">
             <img src="http://sdn.geekzu.org/avatar/c0c79f35b5a892945b2c8dcb444026eb?s=74&amp;d=monsterid&amp;r=g"/>
             <b class="fn">
              ..
             </b>
             <span class="says">
              说道：
             </span>
            </div>
            <!-- .comment-author -->
            <div class="comment-metadata">
             <a href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/#comment-189">
              <time datetime="2008-12-26T12:57:33+00:00">
               2008/12/26 12:57
              </time>
             </a>
            </div>
            <!-- .comment-metadata -->
           </footer>
           <!-- .comment-meta -->
           <div class="comment-content">
            <p>
             对于齐同学的第一个问题，确实是个很有意思的问题哈。一般来说，在疑似的病例来说，直接丢掉不管，有点可惜，因为它可能藏有感染者的一般信息。但是直接把感染的和疑似的病例并到一块分析，又违反了统计学上的基本假设iid。 所以这一块的信息怎么利用一直是一个很有意思，而且能拿到funding的课题。根据我的经验，在这一块来说，主要有三个思路。一是来自meta analysis，属于生物统计学，这一派比较古老，用的方法也比较经典。另一派来自cs中的multi-kernel learning, 这一派主张用多个kernel来实现比较high level的信息整合，而且目前来看已经获得了一定的成功。还有一派就是来自贝叶斯学派，bayesian hierarchical model， multilevel model 也是一个经常拿来说的东西。你可以google这些关键词，一找一大砣
            </p>
           </div>
           <!-- .comment-content -->
           <div class="reply">
            <a aria-label="回复给.." class="comment-reply-link" href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/?replytocom=189#respond" onclick='return addComment.moveForm( "div-comment-189", "189", "respond", "567" )' rel="nofollow">
             回复
            </a>
           </div>
          </article>
          <!-- .comment-body -->
         </li>
         <!-- #comment-## -->
         <li class="comment byuser comment-author-hujiangtang bypostauthor even thread-odd thread-alt depth-1" id="comment-190">
          <article class="comment-body" id="div-comment-190">
           <footer class="comment-meta">
            <div class="comment-author vcard">
             <img src="http://sdn.geekzu.org/avatar/abd82db6fc93f4ed3c5ae292f4d8f0c7?s=74&amp;d=monsterid&amp;r=g"/>
             <b class="fn">
              <a class="url" href="http://jiangtanghu.blogspot.com/" rel="external nofollow">
               胡江堂
              </a>
             </b>
             <span class="says">
              说道：
             </span>
            </div>
            <!-- .comment-author -->
            <div class="comment-metadata">
             <a href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/#comment-190">
              <time datetime="2008-12-26T13:27:33+00:00">
               2008/12/26 13:27
              </time>
             </a>
            </div>
            <!-- .comment-metadata -->
           </footer>
           <!-- .comment-meta -->
           <div class="comment-content">
            <p>
             to齐韬:
            </p>
            <p>
             我没做过医药方面的项目，讲个我熟悉的例子吧，信用评分，本文的例子也是这块。在建立个人信用评分模型时，一般要求数据的包含了贷款者的还款历史，拥有还款历史的贷款者才能被清除地归为“好”或“坏”这两个类别。如果还款期尚在模型建立的时间窗口内，对各种类别的划分就不是那么直接了，这时一些账户就不能够确定地归为“好”或“坏”这两个类别。比如，在还款期内，一个有三笔或以上欠账的账户是“坏”的账户，而“好”账户则没有欠账，那么一个有两笔欠款的账户，只要它还没有达到三笔欠款，就不能把它归为“坏”的一类。这种“中间”账户（indeterminate，或者poor）的存在会给信用评分模型的建立带来很多麻烦，一种解决方案是直接剔除掉这些“中间”账户，但无疑这会失去很多有意义的信息。
            </p>
            <p>
             看过一些研究，一般会有这么几种处理办法。把个人消费信贷的申请人分为三种：好的（good）、坏的（bad）和中间者（indeterminate，或者poor），按照这三个输出属性的不同组合，就产生了以下5 个模型：
            </p>
            <p>
             模型1：多项模型，输出属性分为以上3 类
             <br/>
             模型2：二项模型，输出属性分为good、bad（直接删除poor）
             <br/>
             模型3：二项模型，输出属性分为good（包含poor）、bad
             <br/>
             模型4：二项模型，输出属性分为good、bad（包含poor）
             <br/>
             模型5：二项模型，输出属性为为good、bad，这两个类别都包括了根据模型2 估计出来的poor 类别，这些poor 或者被估计为good，或者被估计为bad。
            </p>
            <p>
             跟上文提到的类似，可以定义一个总命中率（total hit rate），它测量的是在验证样本中，模型正确分类的个数占总数的百分比，还有平均命中率（average hit rate）指good、bad、poor 三个类别的命中率的平均。这两个指标应该也挺好用。
            </p>
            <p>
             一些实证研究表明（见下），在命中率方面，径向基网络至少给出了不弱于Logistic 回归的结果，但处理“坏”账户的能力更强一些。在以上5 个模型中，多项模型（把poor 作为单独的一类）的命中率最低，表明有必要在建立模型时把“中间”账户归为“好”账户或者“坏”账户。另外，神经网络模型倾向于把 “中间”归为“坏”账户，而Logistic 回归模型则倾向于把它归于“好”账户，所以模型2（直接删除掉“中间”账户）和模型5（poor 类别的账户根据模型2 而指派到good或者bad 类别）似乎更稳定一些。
            </p>
            <p>
             参见：
            </p>
            <p>
             N.Sarlija, M.Bensic, and M.Zekic-Susac. A neural network classification of credit applicants in consumer credit scoring.Proceedings of the 24th IASTED International Multi-Conference,2006
            </p>
           </div>
           <!-- .comment-content -->
           <div class="reply">
            <a aria-label="回复给胡江堂" class="comment-reply-link" href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/?replytocom=190#respond" onclick='return addComment.moveForm( "div-comment-190", "190", "respond", "567" )' rel="nofollow">
             回复
            </a>
           </div>
          </article>
          <!-- .comment-body -->
         </li>
         <!-- #comment-## -->
         <li class="comment byuser comment-author-hujiangtang bypostauthor odd alt thread-even depth-1" id="comment-191">
          <article class="comment-body" id="div-comment-191">
           <footer class="comment-meta">
            <div class="comment-author vcard">
             <img src="http://sdn.geekzu.org/avatar/abd82db6fc93f4ed3c5ae292f4d8f0c7?s=74&amp;d=monsterid&amp;r=g"/>
             <b class="fn">
              <a class="url" href="http://jiangtanghu.blogspot.com/" rel="external nofollow">
               胡江堂
              </a>
             </b>
             <span class="says">
              说道：
             </span>
            </div>
            <!-- .comment-author -->
            <div class="comment-metadata">
             <a href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/#comment-191">
              <time datetime="2008-12-26T13:36:59+00:00">
               2008/12/26 13:36
              </time>
             </a>
            </div>
            <!-- .comment-metadata -->
           </footer>
           <!-- .comment-meta -->
           <div class="comment-content">
            <p>
             to 2楼，
            </p>
            <p>
             Oversampling的情形吧？这可以很方便地做些调整啊。
            </p>
           </div>
           <!-- .comment-content -->
           <div class="reply">
            <a aria-label="回复给胡江堂" class="comment-reply-link" href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/?replytocom=191#respond" onclick='return addComment.moveForm( "div-comment-191", "191", "respond", "567" )' rel="nofollow">
             回复
            </a>
           </div>
          </article>
          <!-- .comment-body -->
         </li>
         <!-- #comment-## -->
         <li class="comment even thread-odd thread-alt depth-1" id="comment-192">
          <article class="comment-body" id="div-comment-192">
           <footer class="comment-meta">
            <div class="comment-author vcard">
             <img src="http://sdn.geekzu.org/avatar/c0c79f35b5a892945b2c8dcb444026eb?s=74&amp;d=monsterid&amp;r=g"/>
             <b class="fn">
              ..
             </b>
             <span class="says">
              说道：
             </span>
            </div>
            <!-- .comment-author -->
            <div class="comment-metadata">
             <a href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/#comment-192">
              <time datetime="2008-12-26T14:13:50+00:00">
               2008/12/26 14:13
              </time>
             </a>
            </div>
            <!-- .comment-metadata -->
           </footer>
           <!-- .comment-meta -->
           <div class="comment-content">
            <p>
             Not oversampling。。oversampling只是一种虚假的增加样本的手段。你现在所说的忽略了银行为什么拿钱给你干这活的真实目的。我本身为美国银行做过这样一个项目，实际上，他们最关心的就是outlier的诊断。这就是说，模型应该放更多的cost在风险大的客户上面，多诊断出一个坏账比多诊断出十个好客户都要好。我们当时面临的一个问题就是，既然事实是这样的事实，怎么样来选择模型？这个问题我反正是没有做出满意的结果。。
            </p>
            <p>
             另外，其实银行不care到底是用ann还是logistic回归，也不可能说哪个模型就一定要好－－数据决定一切，具体事情具体分析。事实上为什么会有银行信用数据的处理，最关键的就是我们无法得到最想要得到的信息－－－income. 客户的收入直接决定了他的信用能力，但是这个信息只能从其他方面去推算。所以，选什么样的模型，关键在于你手头的数据类型和多少。我当时就用的比较简单的pca，当然在具体应用过程中有一些trick，效果比那些复杂的ann和非线性回归要好得多，而且容易理解。。
            </p>
           </div>
           <!-- .comment-content -->
           <div class="reply">
            <a aria-label="回复给.." class="comment-reply-link" href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/?replytocom=192#respond" onclick='return addComment.moveForm( "div-comment-192", "192", "respond", "567" )' rel="nofollow">
             回复
            </a>
           </div>
          </article>
          <!-- .comment-body -->
         </li>
         <!-- #comment-## -->
         <li class="comment byuser comment-author-hujiangtang bypostauthor odd alt thread-even depth-1" id="comment-193">
          <article class="comment-body" id="div-comment-193">
           <footer class="comment-meta">
            <div class="comment-author vcard">
             <img src="http://sdn.geekzu.org/avatar/abd82db6fc93f4ed3c5ae292f4d8f0c7?s=74&amp;d=monsterid&amp;r=g"/>
             <b class="fn">
              <a class="url" href="http://jiangtanghu.blogspot.com/" rel="external nofollow">
               胡江堂
              </a>
             </b>
             <span class="says">
              说道：
             </span>
            </div>
            <!-- .comment-author -->
            <div class="comment-metadata">
             <a href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/#comment-193">
              <time datetime="2008-12-26T22:45:49+00:00">
               2008/12/26 22:45
              </time>
             </a>
            </div>
            <!-- .comment-metadata -->
           </footer>
           <!-- .comment-meta -->
           <div class="comment-content">
            <p>
             to 6楼：
            </p>
            <p>
             可能我们关注的点不一样吧。我提到的信用评分例子，比如申请人评分，需要找出风险高的申请人，从而拒绝其贷款申请。但同时不能“错杀三千”，因为拒绝了优质客户也是损失。分类模型可以把这些决策成本考虑在内，是综合考虑了这些tradeoff的。你说的极值诊断，应该更有讲究，但显然不在分类模型的考究之内。
            </p>
            <p>
             上面提到的几个指标，像覆盖率，应该是欺诈诊断喜欢的东西。
            </p>
           </div>
           <!-- .comment-content -->
           <div class="reply">
            <a aria-label="回复给胡江堂" class="comment-reply-link" href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/?replytocom=193#respond" onclick='return addComment.moveForm( "div-comment-193", "193", "respond", "567" )' rel="nofollow">
             回复
            </a>
           </div>
          </article>
          <!-- .comment-body -->
         </li>
         <!-- #comment-## -->
         <li class="comment even thread-odd thread-alt depth-1" id="comment-194">
          <article class="comment-body" id="div-comment-194">
           <footer class="comment-meta">
            <div class="comment-author vcard">
             <img src="http://sdn.geekzu.org/avatar/c0c79f35b5a892945b2c8dcb444026eb?s=74&amp;d=monsterid&amp;r=g"/>
             <b class="fn">
              ..
             </b>
             <span class="says">
              说道：
             </span>
            </div>
            <!-- .comment-author -->
            <div class="comment-metadata">
             <a href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/#comment-194">
              <time datetime="2008-12-27T02:48:33+00:00">
               2008/12/27 02:48
              </time>
             </a>
            </div>
            <!-- .comment-metadata -->
           </footer>
           <!-- .comment-meta -->
           <div class="comment-content">
            <p>
             可能我没说清楚。。。
             <br/>
             其实一个分类器交给客户以后，人家只是拿来当辅助工具，既然要当辅助工具，言下之意就是在坏的客户上面具有比常人灵敏度要高的性质，这样才能给客户提个醒。当然，诊断到了风险大的客户，银行看到以后他们自己还要具体事情具体分析的嘛。。但是如果这个分类器对于坏的客户诊断能力太差，而主要的精度都在好的客户那一边的话，这个分类器就没有那么大的辅助作用了。。
             <br/>
             所以在这里有一个tradeoff，我觉得confusion matrix在这样的情况下作用就不大了。因为它weight the two sides equally。
            </p>
           </div>
           <!-- .comment-content -->
           <div class="reply">
            <a aria-label="回复给.." class="comment-reply-link" href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/?replytocom=194#respond" onclick='return addComment.moveForm( "div-comment-194", "194", "respond", "567" )' rel="nofollow">
             回复
            </a>
           </div>
          </article>
          <!-- .comment-body -->
         </li>
         <!-- #comment-## -->
         <li class="comment odd alt thread-even depth-1" id="comment-195">
          <article class="comment-body" id="div-comment-195">
           <footer class="comment-meta">
            <div class="comment-author vcard">
             <img src="http://sdn.geekzu.org/avatar/6f996ba2955b83c5ddbbd2dc7e46e837?s=74&amp;d=monsterid&amp;r=g"/>
             <b class="fn">
              xjx
             </b>
             <span class="says">
              说道：
             </span>
            </div>
            <!-- .comment-author -->
            <div class="comment-metadata">
             <a href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/#comment-195">
              <time datetime="2008-12-27T17:24:52+00:00">
               2008/12/27 17:24
              </time>
             </a>
            </div>
            <!-- .comment-metadata -->
           </footer>
           <!-- .comment-meta -->
           <div class="comment-content">
            <p>
             呵呵, 楼主辛苦辛苦. 学习了.
            </p>
            <p>
             我来做个脚注:
             <br/>
             Sensitivity就是灵敏度, 是疾病发生后出现症状的概率.specificity就是特异度, 是疾病不发生时不出现症状的概率.
            </p>
            <p>
             假设肺癌中90\%抽烟, 没有肺癌的30\%抽烟. 此处疾病为肺癌, 症状为抽烟. 灵敏度为肺癌中抽烟的概率为0.9, 特异度为没有肺癌的不抽烟的概率0.7.
            </p>
            <p>
             (参考文献: Bernard Rosner. 孙尚拱 译. 生物统计学基础（Fundamentals of
             <br/>
             Biostatistics）, 第五版. 科学出版社, 2004.)
            </p>
           </div>
           <!-- .comment-content -->
           <div class="reply">
            <a aria-label="回复给xjx" class="comment-reply-link" href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/?replytocom=195#respond" onclick='return addComment.moveForm( "div-comment-195", "195", "respond", "567" )' rel="nofollow">
             回复
            </a>
           </div>
          </article>
          <!-- .comment-body -->
         </li>
         <!-- #comment-## -->
         <li class="pingback even thread-odd thread-alt depth-1" id="comment-201">
          <div class="comment-body">
           Pingback：
           <a class="url" href="http://cos.name/?p=575" rel="external nofollow">
            | 统计之都
           </a>
          </div>
         </li>
         <!-- #comment-## -->
         <li class="comment byuser comment-author-hujiangtang bypostauthor odd alt thread-even depth-1" id="comment-202">
          <article class="comment-body" id="div-comment-202">
           <footer class="comment-meta">
            <div class="comment-author vcard">
             <img src="http://sdn.geekzu.org/avatar/abd82db6fc93f4ed3c5ae292f4d8f0c7?s=74&amp;d=monsterid&amp;r=g"/>
             <b class="fn">
              <a class="url" href="http://jiangtanghu.blogspot.com/" rel="external nofollow">
               胡江堂
              </a>
             </b>
             <span class="says">
              说道：
             </span>
            </div>
            <!-- .comment-author -->
            <div class="comment-metadata">
             <a href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/#comment-202">
              <time datetime="2008-12-29T09:15:03+00:00">
               2008/12/29 09:15
              </time>
             </a>
            </div>
            <!-- .comment-metadata -->
           </footer>
           <!-- .comment-meta -->
           <div class="comment-content">
            <p>
             to xjx： 多谢补充。看来我手头也得备一部生统的书了。
            </p>
            <p>
             to 8楼：“confusion matrix ……weight the two sides equally”，却是不必。前面我提到“分类模型可以把这些决策成本考虑在内，是综合考虑了这些tradeoff的”，下面展开些来讲吧。
            </p>
            <p>
             上面提到，“随着阈值的减小（更多的客户就会被归为正例），Sensitivity和1-Specificity也相应增加（也即Specificity相应减少）”，Sensitivity和Specificity之间有个tradeoff的关系。如果目标是增加Sensitivity（如果银行想要，“在坏的客户上面具有比常人灵敏度要高”），最佳的分类器就倾向于把客户归为类别positive（这里是bad），这样阈值就要选小些；同样，如果目标是要增加Specificity（文中提到的数据库营销例子），阈值就要大些。
            </p>
            <p>
             要选择一个最优的阈值，可以根据业务规则，利用Misclassification Costs Matrix，最优的决策将是达到（预期）成本最小 。或者，如果信息足够，最优决策还可以基于Profit Matrix。无论如何，这样提供的confusion matrix都是有意义的。
            </p>
           </div>
           <!-- .comment-content -->
           <div class="reply">
            <a aria-label="回复给胡江堂" class="comment-reply-link" href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/?replytocom=202#respond" onclick='return addComment.moveForm( "div-comment-202", "202", "respond", "567" )' rel="nofollow">
             回复
            </a>
           </div>
          </article>
          <!-- .comment-body -->
         </li>
         <!-- #comment-## -->
         <li class="pingback even thread-odd thread-alt depth-1" id="comment-205">
          <div class="comment-body">
           Pingback：
           <a class="url" href="http://cos.name/2008/12/measure-classification-model-performance-roc-auc/" rel="external nofollow">
            分类模型的性能评估——以SAS Logistic回归为例(2): ROC和AUC | 统计之都
           </a>
          </div>
         </li>
         <!-- #comment-## -->
         <li class="pingback odd alt thread-even depth-1" id="comment-289">
          <div class="comment-body">
           Pingback：
           <a class="url" href="http://cos.name/2009/02/measure-classification-model-performance-lift-gain/" rel="external nofollow">
            胡江堂: 分类模型的性能评估——以SAS Logistic回归为例(3): Lift和Gain | 统计之都
           </a>
          </div>
         </li>
         <!-- #comment-## -->
         <li class="comment even thread-odd thread-alt depth-1" id="comment-424">
          <article class="comment-body" id="div-comment-424">
           <footer class="comment-meta">
            <div class="comment-author vcard">
             <img src="http://sdn.geekzu.org/avatar/897ab2e1a792b557f8a94221ccce1fc2?s=74&amp;d=monsterid&amp;r=g"/>
             <b class="fn">
              Saint13
             </b>
             <span class="says">
              说道：
             </span>
            </div>
            <!-- .comment-author -->
            <div class="comment-metadata">
             <a href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/#comment-424">
              <time datetime="2009-03-19T13:17:39+00:00">
               2009/03/19 13:17
              </time>
             </a>
            </div>
            <!-- .comment-metadata -->
           </footer>
           <!-- .comment-meta -->
           <div class="comment-content">
            <p>
             学习了。
             <br/>
             有个小地方有疑问:
             <br/>
             <q cite="从下面的局部的数据valid_p可以看到，一些实际上是good的客户，根据我们的模型（阈值p取0.5），却预测他为bad（套用我们假设检验的黑话，这就犯了“弃真”的错误），对一些原本是bad的客户，却预测他为good（“取伪”错误），当然，对更多的客户，good还预测成good，bad还预测成bad：">
              <br/>
              这里bad是作为关注事件,所以,good被预测为bad是相当于第二类错误,应该是取伪错误,bad预测为good应该是第一类错误,也就是去真错误.
              <br/>
              ==共同探讨下，呵呵.^_^
              <br/>
              Saint13
             </q>
            </p>
           </div>
           <!-- .comment-content -->
           <div class="reply">
            <a aria-label="回复给Saint13" class="comment-reply-link" href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/?replytocom=424#respond" onclick='return addComment.moveForm( "div-comment-424", "424", "respond", "567" )' rel="nofollow">
             回复
            </a>
           </div>
          </article>
          <!-- .comment-body -->
         </li>
         <!-- #comment-## -->
         <li class="comment odd alt thread-even depth-1" id="comment-598">
          <article class="comment-body" id="div-comment-598">
           <footer class="comment-meta">
            <div class="comment-author vcard">
             <img src="http://sdn.geekzu.org/avatar/433ce86175b87daa93cbf563ca2949b7?s=74&amp;d=monsterid&amp;r=g"/>
             <b class="fn">
              ni
             </b>
             <span class="says">
              说道：
             </span>
            </div>
            <!-- .comment-author -->
            <div class="comment-metadata">
             <a href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/#comment-598">
              <time datetime="2009-05-12T11:18:48+00:00">
               2009/05/12 11:18
              </time>
             </a>
            </div>
            <!-- .comment-metadata -->
           </footer>
           <!-- .comment-meta -->
           <div class="comment-content">
            <p>
             你好，胡江堂。你的文章写得很好，浅显直白。实在是很缺这方面的知识，谢谢！
             <br/>
             这篇文章最后写“为什么提供1-Specificity而不是Specificity，下文有讲究。 ”
            </p>
            <p>
             可是我看了半天还是没看懂为什么选1-Specificity而不是Specificity？
            </p>
            <p>
             在下愚钝，还望包涵。
            </p>
           </div>
           <!-- .comment-content -->
           <div class="reply">
            <a aria-label="回复给ni" class="comment-reply-link" href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/?replytocom=598#respond" onclick='return addComment.moveForm( "div-comment-598", "598", "respond", "567" )' rel="nofollow">
             回复
            </a>
           </div>
          </article>
          <!-- .comment-body -->
         </li>
         <!-- #comment-## -->
         <li class="comment even thread-odd thread-alt depth-1" id="comment-798">
          <article class="comment-body" id="div-comment-798">
           <footer class="comment-meta">
            <div class="comment-author vcard">
             <img src="http://sdn.geekzu.org/avatar/0d59c44c4cf0b0a09f71e468ae25d937?s=74&amp;d=monsterid&amp;r=g"/>
             <b class="fn">
              xiaohua
             </b>
             <span class="says">
              说道：
             </span>
            </div>
            <!-- .comment-author -->
            <div class="comment-metadata">
             <a href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/#comment-798">
              <time datetime="2009-08-12T15:54:01+00:00">
               2009/08/12 15:54
              </time>
             </a>
            </div>
            <!-- .comment-metadata -->
           </footer>
           <!-- .comment-meta -->
           <div class="comment-content">
            <p>
             您好！我也用您提到的数据做过信用评分模型的研究，有两个问题想请教您一下：
             <br/>
             （1）您是怎样从20个特征变量中挑选出checking history duration savings property这5个变量的？
             <br/>
             （2）在预测的结果中为什么对于坏客户的预测结果相对较差，有将近2/3的坏客户被预测成了好客户？这是由于样本数据中的坏客户数量太少的原因造成的吗？
             <br/>
             请您多多指教！
            </p>
           </div>
           <!-- .comment-content -->
           <div class="reply">
            <a aria-label="回复给xiaohua" class="comment-reply-link" href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/?replytocom=798#respond" onclick='return addComment.moveForm( "div-comment-798", "798", "respond", "567" )' rel="nofollow">
             回复
            </a>
           </div>
          </article>
          <!-- .comment-body -->
         </li>
         <!-- #comment-## -->
         <li class="comment odd alt thread-even depth-1" id="comment-1818">
          <article class="comment-body" id="div-comment-1818">
           <footer class="comment-meta">
            <div class="comment-author vcard">
             <img src="http://sdn.geekzu.org/avatar/e237d00fd86e6f7834aa02455a980347?s=74&amp;d=monsterid&amp;r=g"/>
             <b class="fn">
              Marcus1980
             </b>
             <span class="says">
              说道：
             </span>
            </div>
            <!-- .comment-author -->
            <div class="comment-metadata">
             <a href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/#comment-1818">
              <time datetime="2011-01-03T02:46:57+00:00">
               2011/01/03 02:46
              </time>
             </a>
            </div>
            <!-- .comment-metadata -->
           </footer>
           <!-- .comment-meta -->
           <div class="comment-content">
            <p>
             对楼上的第一个问题也很有兴趣。当然楼主的目的在解说验证评估指标，模型建立过程略说也可理解，不过要能细讲讲就最好了。
             <br/>
             对第二个问题，个人感觉跟违约阀值的设定有关系。阀值设为50%，说明对坏客户的认定较为保守，许多违约概率在50%下的坏客户被认定为是好客户，从而导致对坏客户的预测能力较差，同时对好客户的预测能力极强。如果降低阀值（比如30%），那么第I类错误（坏认为好）会下降许多，但同时第II类错误（好认为坏）也会上升。
             <br/>
             我自己算的例子（阀值从50%降为30%）中（跟楼主的公式有些差异——数据集划分的误差），第I类错误会从63%降至35%，第II类错误从8%上升至23%。这么看的话，似乎要均衡了许多，也许楼主设的50%可能更多是偏向业务扩张型的。
            </p>
           </div>
           <!-- .comment-content -->
           <div class="reply">
            <a aria-label="回复给Marcus1980" class="comment-reply-link" href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/?replytocom=1818#respond" onclick='return addComment.moveForm( "div-comment-1818", "1818", "respond", "567" )' rel="nofollow">
             回复
            </a>
           </div>
          </article>
          <!-- .comment-body -->
         </li>
         <!-- #comment-## -->
         <li class="comment even thread-odd thread-alt depth-1" id="comment-4468">
          <article class="comment-body" id="div-comment-4468">
           <footer class="comment-meta">
            <div class="comment-author vcard">
             <img src="http://sdn.geekzu.org/avatar/4fe26109df2b9b0944793bb8eed3e886?s=74&amp;d=monsterid&amp;r=g"/>
             <b class="fn">
              bxfly
             </b>
             <span class="says">
              说道：
             </span>
            </div>
            <!-- .comment-author -->
            <div class="comment-metadata">
             <a href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/#comment-4468">
              <time datetime="2013-06-30T14:51:05+00:00">
               2013/06/30 14:51
              </time>
             </a>
            </div>
            <!-- .comment-metadata -->
           </footer>
           <!-- .comment-meta -->
           <div class="comment-content">
            <p>
             有个问题请教江堂兄，sas logistic回归中可以预测出两类的概率，如果信用评分好的概率大于信用评分差的概率，那么就应该视为good，没必要去设定阀值啊？？
            </p>
           </div>
           <!-- .comment-content -->
           <div class="reply">
            <a aria-label="回复给bxfly" class="comment-reply-link" href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/?replytocom=4468#respond" onclick='return addComment.moveForm( "div-comment-4468", "4468", "respond", "567" )' rel="nofollow">
             回复
            </a>
           </div>
          </article>
          <!-- .comment-body -->
         </li>
         <!-- #comment-## -->
         <li class="comment odd alt thread-even depth-1" id="comment-4865">
          <article class="comment-body" id="div-comment-4865">
           <footer class="comment-meta">
            <div class="comment-author vcard">
             <img src="http://sdn.geekzu.org/avatar/?s=74&amp;d=monsterid&amp;r=g"/>
             <b class="fn">
              <a class="url" href="http://weibo.com/2299260487" rel="external nofollow">
               百科围脖
              </a>
             </b>
             <span class="says">
              说道：
             </span>
            </div>
            <!-- .comment-author -->
            <div class="comment-metadata">
             <a href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/#comment-4865">
              <time datetime="2013-09-15T14:39:47+00:00">
               2013/09/15 14:39
              </time>
             </a>
            </div>
            <!-- .comment-metadata -->
           </footer>
           <!-- .comment-meta -->
           <div class="comment-content">
            <p>
             很好的一篇logistic regression文章
            </p>
           </div>
           <!-- .comment-content -->
           <div class="reply">
            <a aria-label="回复给百科围脖" class="comment-reply-link" href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/?replytocom=4865#respond" onclick='return addComment.moveForm( "div-comment-4865", "4865", "respond", "567" )' rel="nofollow">
             回复
            </a>
           </div>
          </article>
          <!-- .comment-body -->
         </li>
         <!-- #comment-## -->
         <li class="comment even thread-odd thread-alt depth-1 parent" id="comment-5257">
          <article class="comment-body" id="div-comment-5257">
           <footer class="comment-meta">
            <div class="comment-author vcard">
             <img src="http://sdn.geekzu.org/avatar/?s=74&amp;d=monsterid&amp;r=g"/>
             <b class="fn">
              <a class="url" href="http://www.renren.com/profile.do?id=330545532" rel="external nofollow">
               虞俊Beta
              </a>
             </b>
             <span class="says">
              说道：
             </span>
            </div>
            <!-- .comment-author -->
            <div class="comment-metadata">
             <a href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/#comment-5257">
              <time datetime="2014-01-08T18:09:03+00:00">
               2014/01/08 18:09
              </time>
             </a>
            </div>
            <!-- .comment-metadata -->
           </footer>
           <!-- .comment-meta -->
           <div class="comment-content">
            <p>
             文章中把一些分类变量当做数值变量来做logistic回归是不是有些不妥？
            </p>
           </div>
           <!-- .comment-content -->
           <div class="reply">
            <a aria-label="回复给虞俊Beta" class="comment-reply-link" href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/?replytocom=5257#respond" onclick='return addComment.moveForm( "div-comment-5257", "5257", "respond", "567" )' rel="nofollow">
             回复
            </a>
           </div>
          </article>
          <!-- .comment-body -->
          <ol class="children">
           <li class="comment odd alt depth-2" id="comment-7029">
            <article class="comment-body" id="div-comment-7029">
             <footer class="comment-meta">
              <div class="comment-author vcard">
               <img src="http://sdn.geekzu.org/avatar/33bc1cb7a11c088178a70c6ec181ed79?s=74&amp;d=monsterid&amp;r=g"/>
               <b class="fn">
                scott
               </b>
               <span class="says">
                说道：
               </span>
              </div>
              <!-- .comment-author -->
              <div class="comment-metadata">
               <a href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/#comment-7029">
                <time datetime="2016-01-13T21:21:33+00:00">
                 2016/01/13 21:21
                </time>
               </a>
              </div>
              <!-- .comment-metadata -->
             </footer>
             <!-- .comment-meta -->
             <div class="comment-content">
              <p>
               我觉得也不对，checking这个变量就是，是不是应该改成dummy 再来建模？
              </p>
             </div>
             <!-- .comment-content -->
             <div class="reply">
              <a aria-label="回复给scott" class="comment-reply-link" href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/?replytocom=7029#respond" onclick='return addComment.moveForm( "div-comment-7029", "7029", "respond", "567" )' rel="nofollow">
               回复
              </a>
             </div>
            </article>
            <!-- .comment-body -->
           </li>
           <!-- #comment-## -->
          </ol>
          <!-- .children -->
         </li>
         <!-- #comment-## -->
        </ol>
        <!-- .comment-list -->
        <div class="comment-respond" id="respond">
         <h3 class="comment-reply-title" id="reply-title">
          发表评论
          <small>
           <a href="http://cos.name/2008/12/measure-classification-model-performance-confusion-matrix/#respond" id="cancel-comment-reply-link" rel="nofollow" style="display:none;">
            取消回复
           </a>
          </small>
         </h3>
         <form action="http://cos.name/wp-comments-post.php" class="comment-form" id="commentform" method="post" novalidate="">
          <p class="comment-notes">
           <span id="email-notes">
            电子邮件地址不会被公开。
           </span>
           必填项已用
           <span class="required">
            *
           </span>
           标注
          </p>
          <p class="comment-form-comment">
           <label for="comment">
            评论
           </label>
           <textarea aria-required="true" cols="45" id="comment" maxlength="65525" name="comment" required="required" rows="8">
           </textarea>
          </p>
          <p class="comment-form-author">
           <label for="author">
            姓名
            <span class="required">
             *
            </span>
           </label>
          </p>
          <p class="comment-form-email">
           <label for="email">
            电子邮件
            <span class="required">
             *
            </span>
           </label>
          </p>
          <p class="comment-form-url">
           <label for="url">
            站点
           </label>
          </p>
          <p class="form-submit">
          </p>
          <p style="display: none;">
          </p>
          <p style="display: none;">
          </p>
         </form>
        </div>
        <!-- #respond -->
       </div>
       <!-- #comments -->
      </div>
      <!-- #content -->
     </div>
     <!-- #primary -->
     <div class="sidebar-container" id="tertiary" role="complementary">
      <div class="sidebar-inner">
       <div class="widget-area">
        <aside class="widget widget_text" id="text-3">
         <h3 class="widget-title">
          关注统计之都
         </h3>
         <div class="textwidget">
          <ul>
           <li>
            新浪微博
            <a href="http://weibo.com/cosname">
             @统计之都
            </a>
           </li>
           <li>
            人人网
            <a href="http://renren.com/cosname">
             @统计之都
            </a>
           </li>
           <li>
            Twitter
            <a href="http://twitter.com/cos_name">
             @cos_name
            </a>
           </li>
          </ul>
         </div>
        </aside>
        <aside class="widget widget_text" id="text-6">
         <h3 class="widget-title">
          微信公众平台
         </h3>
         <div class="textwidget">
          <img src="http://cos.name/wp-content/uploads/2013/04/qrcode-8cm.jpg"/>
          <p style="font-size:12px;margin-left:15px">
           微信号 CapStat
          </p>
          <p>
           我们将第一时间向您推送主站和论坛的精彩内容，以及统计之都的线下活动、竞赛、培训和会议信息。
          </p>
         </div>
        </aside>
        <aside class="widget widget_text" id="text-8">
         <h3 class="widget-title">
          站内导航
         </h3>
         <div class="textwidget">
          <ul>
           <li class="page_item">
            <a href="http://cos.name/cn/">
             中文论坛
            </a>
           </li>
           <li class="page_item">
            <a href="http://cos.name/videos/">
             视频
            </a>
           </li>
           <li class="page_item">
            <a href="http://cos.name/salon/">
             统计沙龙
            </a>
           </li>
           <li class="page_item">
            <a href="http://cos.name/books/">
             图书出版
            </a>
           </li>
           <li class="page_item">
            <a href="http://cos.name/training/">
             教育培训
            </a>
           </li>
           <li class="page_item">
            <a href="http://cos.name/about/">
             关于我们
            </a>
           </li>
           <li class="page_item">
            <a href="http://cos.name/donate/">
             捐赠
            </a>
           </li>
           <li class="page_item">
            <a href="http://cos.name/chinar/">
             R语言会议
            </a>
           </li>
          </ul>
         </div>
        </aside>
        <aside class="widget widget_links" id="linkcat-2">
         <h3 class="widget-title">
          友情链接
         </h3>
         <ul class="xoxo blogroll">
          <li>
           <a href="http://stat.ruc.edu.cn" target="_blank" title="中国人民大学统计学院网站">
            中国人民大学统计学院
           </a>
          </li>
          <li>
           <a href="http://rucdmc.net">
            中国人民大学数据挖掘中心
           </a>
          </li>
          <li>
           <a href="http://birc.gsm.pku.edu.cn/" target="_blank">
            北京大学商务智能研究中心
           </a>
          </li>
          <li>
           <a href="http://sam.cufe.edu.cn/" target="_blank" title="中央财经大学统计与数学学院网站">
            中央财经大学统计与数学学院
           </a>
          </li>
          <li>
           <a href="http://tjx.cueb.edu.cn/" target="_blank" title="首都经济贸易大学统计学院网站">
            首经贸统计学院
           </a>
          </li>
          <li>
           <a href="http://www.shookr.com/">
            数客网大数据社区
           </a>
          </li>
          <li>
           <a href="http://www.xueqing.tv/" target="_blank" title="数据科学在线学习平台">
            雪晴数据网
           </a>
          </li>
          <li>
           <a href="http://iera.name/" target="_blank" title="IERA是一个旨在普及、传播和增进工业工程知识的非营利性网站">
            IERA（直通IE）
           </a>
          </li>
         </ul>
        </aside>
        <aside class="widget widget_categories" id="categories-2">
         <h3 class="widget-title">
          全部分类
         </h3>
         <label class="screen-reader-text" for="cat">
          全部分类
         </label>
         <select class="postform" id="cat" name="cat">
          <option value="-1">
           选择分类目录
          </option>
          <option class="level-0" value="925">
           cos访谈  (4)
          </option>
          <option class="level-0" value="659">
           图书出版  (5)
          </option>
          <option class="level-0" value="379">
           数学方法  (14)
          </option>
          <option class="level-1" value="381">
           分析与代数  (1)
          </option>
          <option class="level-1" value="380">
           概率论  (9)
          </option>
          <option class="level-1" value="382">
           随机过程  (5)
          </option>
          <option class="level-0" value="210">
           数据分析  (81)
          </option>
          <option class="level-1" value="203">
           多元统计  (3)
          </option>
          <option class="level-1" value="42">
           数据挖掘与机器学习  (42)
          </option>
          <option class="level-1" value="36">
           生物与医学统计  (17)
          </option>
          <option class="level-1" value="35">
           计量经济学  (4)
          </option>
          <option class="level-1" value="296">
           金融统计  (3)
          </option>
          <option class="level-1" value="303">
           风险精算  (7)
          </option>
          <option class="level-0" value="177">
           模型专题  (15)
          </option>
          <option class="level-1" value="38">
           回归分析  (10)
          </option>
          <option class="level-1" value="41">
           时间序列  (2)
          </option>
          <option class="level-0" value="784">
           每周精选  (24)
          </option>
          <option class="level-1" value="183">
           可视化  (9)
          </option>
          <option class="level-0" value="967">
           沙龙纪要  (3)
          </option>
          <option class="level-0" value="18">
           经典理论  (46)
          </option>
          <option class="level-1" value="37">
           抽样调查  (3)
          </option>
          <option class="level-1" value="4">
           统计推断  (26)
          </option>
          <option class="level-1" value="236">
           试验设计  (7)
          </option>
          <option class="level-1" value="39">
           非参数统计  (3)
          </option>
          <option class="level-0" value="1">
           统计之都  (279)
          </option>
          <option class="level-1" value="884">
           中国R会议  (2)
          </option>
          <option class="level-1" value="885">
           中国R语言会议  (5)
          </option>
          <option class="level-1" value="446">
           出国留学  (3)
          </option>
          <option class="level-1" value="179">
           推荐文章  (90)
          </option>
          <option class="level-1" value="3">
           新闻通知  (75)
          </option>
          <option class="level-1" value="263">
           统计刊物  (10)
          </option>
          <option class="level-1" value="174">
           网站导读  (40)
          </option>
          <option class="level-1" value="204">
           职业事业  (51)
          </option>
          <option class="level-1" value="213">
           高校课堂  (9)
          </option>
          <option class="level-0" value="178">
           统计计算  (28)
          </option>
          <option class="level-1" value="40">
           优化与模拟  (15)
          </option>
          <option class="level-1" value="43">
           贝叶斯方法  (6)
          </option>
          <option class="level-0" value="378">
           软件应用  (116)
          </option>
          <option class="level-1" value="44">
           统计图形  (36)
          </option>
          <option class="level-1" value="110">
           统计软件  (83)
          </option>
         </select>
        </aside>
        <aside class="widget widget_recent_comments" id="recent-comments-2">
         <h3 class="widget-title">
          最新评论
         </h3>
         <ul id="recentcomments">
          <li class="recentcomments">
           <span class="comment-author-link">
            fineboom
           </span>
           发表在《
           <a href="http://cos.name/2016/06/use-shiny-fleetly-set-up-visual-prototype-system/#comment-7317">
            利用shiny包快速搭建可视化原型系统
           </a>
           》
          </li>
          <li class="recentcomments">
           <span class="comment-author-link">
            胡家新
           </span>
           发表在《
           <a href="http://cos.name/2016/06/r%e8%af%ad%e5%8d%83%e5%af%bb%e7%ac%ac%e4%b8%89%e6%9c%9f%ef%bc%9a%e5%bc%a0%e6%97%a0%e5%bf%8c%e7%a9%b6%e7%ab%9f%e7%88%b1%e8%b0%81%ef%bc%9f/#comment-7316">
            R语千寻第三期：张无忌究竟爱谁？
           </a>
           》
          </li>
          <li class="recentcomments">
           <span class="comment-author-link">
            <a class="url" href="http://www.zijiacha.com/category.php?id=6" rel="external nofollow">
             南糯山普洱茶
            </a>
           </span>
           发表在《
           <a href="http://cos.name/2016/06/r%e8%af%ad%e5%8d%83%e5%af%bb%e7%ac%ac%e4%b8%89%e6%9c%9f%ef%bc%9a%e5%bc%a0%e6%97%a0%e5%bf%8c%e7%a9%b6%e7%ab%9f%e7%88%b1%e8%b0%81%ef%bc%9f/#comment-7315">
            R语千寻第三期：张无忌究竟爱谁？
           </a>
           》
          </li>
          <li class="recentcomments">
           <span class="comment-author-link">
            J
           </span>
           发表在《
           <a href="http://cos.name/2016/05/value-of-the-reputation-from-the-data/#comment-7314">
            数据告诉你：高信誉的卖家应该收高价，还是收低价？
           </a>
           》
          </li>
          <li class="recentcomments">
           <span class="comment-author-link">
            <a class="url" href="http://gg" rel="external nofollow">
             Hilda
            </a>
           </span>
           发表在《
           <a href="http://cos.name/2013/01/drawing-map-in-r-era/#comment-7311">
            R时代，你要怎样画地图？
           </a>
           》
          </li>
         </ul>
        </aside>
        <aside class="widget widget_rss" id="rss-282869971">
         <h3 class="widget-title">
          <a class="rsswidget" href="http://cos.name/cn/topics/feed/">
           <img src="http://cos.name/wp-includes/images/rss.png"/>
          </a>
          <a class="rsswidget" href="http://cos.name/cn/topics/feed/">
           中文论坛新帖
          </a>
         </h3>
         <ul>
          <li>
           <a class="rsswidget" href="http://cos.name/cn/topic/417372/">
            处理时间数据和产生时间序列的问题
           </a>
          </li>
          <li>
           <a class="rsswidget" href="http://cos.name/cn/topic/6790/">
            《统计陷阱》下载 （How to lie with statistics）
           </a>
          </li>
          <li>
           <a class="rsswidget" href="http://cos.name/cn/topic/818/">
            统计学的世界（第五版）
           </a>
          </li>
          <li>
           <a class="rsswidget" href="http://cos.name/cn/topic/16574/">
            class(x) 返回值值是AsIs,AsIs代表什么，有什么用处？
           </a>
          </li>
          <li>
           <a class="rsswidget" href="http://cos.name/cn/topic/417366/">
            如何用R绘制一个分类算法的决策规则
           </a>
          </li>
         </ul>
        </aside>
        <aside class="widget widget_text" id="text-2">
         <h3 class="widget-title">
          登录/RSS
         </h3>
         <div class="textwidget">
          <ul>
           <li>
            <a href="http://cos.name/wp-admin/">
             登录
            </a>
           </li>
           <li>
            <a href="http://cos.name/feed/" title="使用 RSS 2.0 同步站点内容">
             文章
             <abbr title="Really Simple Syndication">
              RSS
             </abbr>
            </a>
           </li>
           <li>
            <a href="http://cos.name/comments/feed/" title="RSS 上的最近评论">
             评论
             <abbr title="Really Simple Syndication">
              RSS
             </abbr>
            </a>
           </li>
          </ul>
         </div>
        </aside>
       </div>
       <!-- .widget-area -->
      </div>
      <!-- .sidebar-inner -->
     </div>
     <!-- #tertiary -->
    </div>
    <!-- #main -->
    <footer class="site-footer" id="colophon" role="contentinfo">
     <div class="site-info">
      版权所有 © 2014 统计之都 | 由
      <a href="http://wordpress.org/">
       WordPress
      </a>
      构建 | 主题修改自
      <a href="http://wordpress.org/themes/twentythirteen">
       Twenty Thirteen
      </a>
     </div>
     <!-- .site-info -->
    </footer>
    <!-- #colophon -->
   </div>
   <!-- #page -->
   <p style="margin:0;padding:0;height:1px;overflow:hidden;">
    <a href="http://www.wumii.com/widget/relatedItems" style="border:0;">
     <img src="http://static.wumii.cn/images/pixel.png"/>
    </a>
   </p>
  </div>
 </body>
</html>